Word Extractor Pro v7.5

01. 系統設計哲學

閱讀時間：2 分鐘

在現代商務環境中，我們面臨著海量的「非結構化數據」——合同、審計報告、發票、盡職調查文件。這些文件雖然由人眼閱讀毫無障礙，但對於傳統計算機程式而言卻是混亂的。

Word Extractor Pro 的核心價值在於「模仿人類閱讀邏輯」。

本系統採用「錨點導航 (Anchoring)」技術。它像一位經驗豐富的審計師，先尋找關鍵標籤（如“總金額”），再根據視覺邏輯尋找對應的數值。這種設計賦予了系統極強的抗干擾能力，即使文件排版發生微小變動，依然能精準提取數據。

🎯

相對定位技術

不依賴絕對坐標，建立關鍵詞與數值的相對空間關係。

🧹

原生數據清洗

提取瞬間完成去噪與格式化，輸出可計算的數據。

🧠

邏輯分流引擎

自動識別文件類型並套用不同規則，如同智能分揀機。

02. 快速上手三部曲

只需三個步驟，即可將 500 份複雜文件轉化為標準 Excel 報表。

01

導入文件資源

將包含大量 .docx 文件的資料夾拖入系統。系統支持遞歸掃描子目錄，無論是 10 份還是 1000 份文件，處理引擎都能保持穩定。

02

配置提取規則

點擊「+ 新增規則」。告訴系統您想抓取什麼。例如：要抓取客戶名稱，就設定關鍵詞為甲方：，系統將自動鎖定其後的內容。

03

自動化生產

點擊「🚀 導出 Excel」。系統將啟動批次處理引擎，遍歷所有文件，執行解析、提取、清洗，最終生成一份標準化的報表。

第二章：核心提取邏輯詳解

為了應對不同格式的文檔，系統提供了三種底層引擎。選擇正確的引擎是成功的關鍵。

模式 A：文本定位 (Text Mode)

適用場景： 合同條款、報告敘述、信函正文等非表格內容。

原文範例：
本專案代碼為：PJ-2024-X (機密)
↑ 系統識別邏輯：找到「代碼為：」，向後截取直到遇到空格或括號。

💡 關鍵策略：

關鍵詞定位： 輸入代碼為：作為錨點。
結束條件 (End Condition)： 這是最靈活的參數。
- 整段/整行 (EOL)：抓取直到換行符的所有內容。
- 特定符號 (Sym)：例如遇到 ( 停止，可精準剔除備註。
- 固定字數 (Len)：例如往後抓取精確的 10 個字符。

模式 B：表格定位 (Table Mode)

適用場景： 財務報表、結構化清單。即使表格有合併單元格或隱藏邊框，此模式也能運作。

項目	金額 (錨點)	備註
伺服器	50,000 (目標)	...

↑ 系統邏輯：定位「金額」單元格，向下偏移 1 格 (R+1, C+0)。

💡 關鍵策略： 不要使用絕對位置（如第2行第2列），因為表格可能會增加行數。應始終使用「相對偏移」：先找到表頭關鍵詞，再設定向下或向右偏移 N 格。這樣即使表格位置移動，規則依然有效。

模式 C：強制行定位 (Line Mode)

適用場景： 極度標準化的表單，或沒有明確關鍵詞的標題行。

當文檔內容沒有明顯的「標籤」（例如第一行永遠是客戶名稱，但沒有寫“客戶：”），我們可以使用此模式強制抓取第 N 行的所有文本。這是對抗無特徵數據的最後手段。

06. 六大專家配置技巧 (Advanced Techniques)

掌握這些參數，您將能處理 90% 以上的非標準化文件，解決數據提取中的各種疑難雜症。

1. N 次取值 (Occurrence)

場景： 文件裡有 3 個「擔保人」，只想抓第 2 個。
解法： 將「取值要求」設為指定第 N 次出現並填入 2。系統會自動跳過前一次匹配。

2. 多關鍵詞容錯 (Multi-Key)

場景： 不同部門的文件用語不一，有的寫「總價」，有的寫「Total」。
解法： 在關鍵詞欄位填入總價 / Total (用 / 分隔)，系統會自動匹配任一詞。

3. 標題鎖定 (Heading Scope)

場景： 母公司和子公司都有「收入」表，只想抓子公司的。
解法： 在「標題鎖定」欄位填入章節標題（如子公司財務報表），系統只在該範圍內搜索。

4. 逆向錨定 (Reverse Anchoring)

場景： 數字在前，單位在後（如 "50,000 元"）。
解法： 定位關鍵詞元，選擇往前取特定字數。這能解決標籤位於數值後方的難題。

5. 定長精準截取

場景： 只想抓取產品代碼的前 5 碼，後面的文字是雜訊。
解法： 選擇往後取特定字數並填入 5，系統會從關鍵詞結束位置精準切割。

6. 財務格式清洗

場景： 數字格式為 (50,000)，Excel 無法計算。
解法： 勾選格式化為數字，系統自動將括號轉為負號、去除千分位逗號，轉為純數值。

07. 全局掃描與頁眉穿透 (Global Scope)

業務痛點： 許多重要信息（如「合約編號」、「版本號」）只出現在 Word 的 頁眉 (Header) 或 頁腳 (Footer) 中，正文中找不到。

解決方案： 本系統 v7.5 已默認開啟全局掃描技術。

您無需做任何特殊設定。
直接輸入頁眉中的關鍵詞（如合約編號：）。
系統會自動穿透文檔邊界，掃描所有頁眉與頁腳區域，提取目標數據。

08. 數據清洗管道 (Data Governance)

原始提取的文本往往包含雜訊。本系統內置了 ETL 級別的清洗管道。

原始數據 (Raw)

" HKD 1,200,000.00 (預估) "

↓ 管道處理

自定義去除

移除 HKD, (預估)

去空與修剪

Trim Whitespace

數值格式化

轉換為 Number 類型

↓ 最終產出

Excel 輸出
1200000

進階技巧：文字替代 (Dictionary Replacement)
這是一個強大的映射工具。您可以定義：將文檔中的無保留意見自動替換為 OK；或將 OCR 識別錯誤的 l00 (字母l) 修復為 100 (數字1)。

09. 智能場景分流技術 (Smart Routing)

當處理混合類型的文件包（例如同時包含發票、合約、報價單）時，單一套規則無法滿足需求。

自動導航 (Auto Pilot) 範例：

場景 A (中文合約)： 觸發條件為內文包含元或合同 ➜ 執行中文規則。
場景 B (英文合約)： 觸發條件為內文包含 USD 或 Agreement ➜ 執行英文規則。
結果： 系統如同自動駕駛，自動切換語言處理引擎，輸出的 Excel 欄位卻是整齊統一的。

第五章：極限案例與大師級技巧

以下案例展示了如何通過功能的「組合技」，解決看似不可解的非標準化難題。

難度：高階

CASE I: 虛擬表格穿透 (The Ghost Table)

業務痛點： 文檔內容視覺上看起來是對齊的表格，但其實是用戶用「空白鍵」或「Tab鍵」強行排版出來的。系統無法識別為表格。

解決方案：文本盲取 + 強力壓縮

放棄表格結構，改用「文本模式」。定位到標題後，設定往後取 50 個字。接著，啟用清洗：去除所有空白與格式化為數字。系統會像吸塵器一樣，吸走所有無效空格，將分散的數字壓縮為緊湊的正確數值。

難度：專家

CASE II: 漂移數據鎖定 (Drifting Data)

業務痛點： 目標數據（如專案編號）位置極不固定，但它總是出現在「基本信息」這個大章節標題之後。

解決方案：作用域鎖定 (Scope Locking)

在規則中設定只在以下標題之後處理：基本信息。這相當於在文檔中畫了一個虛擬的圈，系統會忽略圈外的所有干擾項。

難度：大師

CASE III: 損毀數據修復 (OCR Repair)

業務痛點： 處理掃描件（OCR）轉出的 Word 時，數字 100,000 經常被錯誤識別為 l00,000 (小寫L代替1) 或 100 000 (逗號丟失)。

解決方案：字典映射修復

我們不只是提取，更是在「編譯」。利用文字替代功能，建立一個錯誤修正庫：將 l 替換為 1，將 O 替換為 0，將空格替換為無。即時修復為高質量的金融數據。